Vamos investigar a existência de tipos de filmes quanto a idade dos personagens e a quantidade de palavras que eles falam, para cada gênero de personagem (femino e masculino). Será que existem grupos que definem comportamentos comuns para os filmes analisados? Por exemplo: será que mulheres mais velhas falam mais que as mulheres mais novas? Ou será que os homens falam mais que as mulheres? Essas são apenas algumas interrogações que nos vem a mente e que podem surgir como resultado de grupos de filmes.
Antes de escolher as dimensões foi necessário realizar um merge dos dados e filtrar alguns dados que continham campos nulos ou vazios, como a idade dos personagens.
Foram escolhidas quatro variáveis numéricas para realizar a análise, que foram calculadas a partir do conjunto de dados. São elas: mediana da idade de personagens do sexo feminino no filme (age_f), mediana de palavras dos personagens do sexo feminino no filme (words_f), mediana da idade de personagens do sexo masculino no filme (age_m), mediana de palavras dos personagens do sexo masculino no filme (words_m).
O conjunto de dados submetido a análise contém, para cada filme, uma observação com valores para cada variável mencionada acima.
Para realizar o agrupamento, antes precisamos escolher um bom valor para k, onde k indica basicamente o número de grupos que iremos identificar no conjunto de dados. Uma medida muito usada no k-means é comparar a distância (quadrática) entre o centro dos clusters e o centro dos dados com a distância (quadrática) entre os pontos todos nos dados e o centro dos dados. Quando essa medida parar de crescer, significa que não vale à pena aumentar o k.
Ao observar o gráfico acima percebemos que o melhor valor de k para o nosso caso seria 4, já que apartir de 4 a medida que mencionamos acima começa a parar de crescer.
Observando o gráfico acima e olhando a direção em que as linhas dos filmes cruzam e tocam cada uma das variáveis ou coordenadas podemos observar grupos que caracterizam os filmes que ali cabem.
Analisando quanta variância cada PC captura:
No gráfico acima podemos observar que quando reduzimos as quatro variáveis para duas conseguimos capturar 65% da variância dos dados.
Logo abaixo podemos ver a visualização 2D da redução de dimensionalidade das 4 dimensões mencionadas anteriormente.
PC1 e PC2 são as duas variáveis criadas para substituir as 4 variáveis originais de antes da visualização. PC1 e PC2 são úteis se conseguirmos entender a relação delas com as variáveis originais. Na técnica denominada PCA, cada uma dessas novas variáveis é calculada a partir das 4 iniciais.
Observando o gráfico, age_m e age_f variam quando um ponto está mais à direita ou esquerda no gráfico (direção de PC1), mas não variam muito em função da posição de um ponto no eixo vertical (direção de PC2). Já words_f e words_m estão mais relacionada com PC2, enquanto age_m e age_f praticamente não estão.
Seguindo a mesma leitura, words_f e words_m variam principalmente na medida que os pontos estão mais acima ou abaixo no gráfico (PC2), mas também em função de quão à esquerda ou direita eles estão.
Outra forma de ver a informação que o gráfico mostra é vendo PC1 e PC2 como duas funções das 4 variáveis originais, vejamos abaixo.
## PC age_f age_m words_f words_m
## 1 1 0.6505657 0.6481060 -0.2882244 -0.2713846
## 2 2 -0.2783180 -0.2812107 -0.6443512 -0.6544243
Os valores na tabela são os coeficientes, e a leitura é que:
PC1 = 0.650age_f + 0.648age_m - 0.288words_f − 0.271words_m e PC2 = - 0.278age_f - 0.281age_m - 0.644words_f - 0.654words_m.
Em PC1, mudar uma unidade nas 2 primeiras variáveis aumenta PC1 e faz com que um ponto esteja mais à direita no gráfico. Já words_f e words_m têm efeito negativo e de menor efeito por unidade do que as duas primeiras. A unidade aqui é em z-scores: todas as variáveis foram normalizadas com scale antes da redução de dimensionalidade, para que seu efeito ficasse comparável.
Em PC2, mudar uma unidade nas 4 variáveis diminui PC2 e faz com que um ponto esteja mais à cima ou abaixo no gráfico.
As variáveis age_m e age_f são muito correlacionadas e as duas são componentes principais para trazer informação para PC1, por isso, PC1 é explicado em função dessas 2 variáveis. Como words_m e words_f não trazem muita informação para PC1, o método PCA cria PC2 que vai ser representado por estas duas variáveis que são menos correlacionadas com as demais, porém muito correlacionadas entre si. Da mesma forma,a união words_m e words_f trazem muita informação para PC2.
Podemos entender que existem 4 grupos de filmes segundo as 4 variáveis que usamos.
O grupo 1 é caracterizado por conter a maior parte dos personagens com idades abaixo da média, para ambos os sexos. Já com relação a quantidade de palavras ditas não percebe-se uma diferença muito significatica. Poderíamos nomear esse grupo como: “Os novinhos”.
O grupo 2 é caracterizado por conter personagens com idades bem variadas, para ambos os sexos. Já com relação a quantidade de palavras ditas percebe-se que os homens falam mais que as mulheres. Poderíamos nomear esse grupo como: “Homens tagarelas”.
O grupo 3 é caracterizado por conter a maior parte dos personagens do sexo feminino com idades abaixo da média. Já com relação a quantidade de palavras ditas percebe-se que as mulheres falam mais que os homens, o oposto do grupo anterior. Poderíamos nomear esse grupo como: “As novinhas tagarelas”.
O grupo 4 é caracterizado por conter a maior parte dos personagens do sexo feminino com idades acima da média. Já com relação a quantidade de palavras ditas percebe-se que as mulheres falam um pouco menos que os homens. Poderíamos nomear esse grupo como: “Mulheres ‘maduras’ falam menos”.